An Empirical Configuration Study of a Common Document Clustering Pipeline
An Empirical Configuration Study of a Common Document Clustering Pipeline(PDF)
Anton Eklund+ 2023
https://gyazo.com/071aa00fa9cb953e7a0d3a988816cfc6
GPT5.icon文書クラスタリングの体系的比較(NEJLT 2023)
BERT 埋め込み+次元削減(UMAP/PCA)+クラスタリング(k‑means/HDBSCAN)のパイプラインを複数データセット(SNACK/AG News/Reuters)で比較。
結果として 「bert_umap_hdbscan」または「bert_umap_kmeans」が最良であることが多い。次元数は 10–15 次元で性能が頭打ちになりやすく、2D など極端な低次元は不利。時間面では UMAP の計算コストは n_neighbors に強く依存(20→数秒、1280→数百秒)という計測も示されています。
nishio.icon
埋め込みベクトルをUMAPしてからクラスタリングすることに関して、「UMAPしてからクラスタリングするのはあり?」という問いは適切ではなくUMAPで何次元にするのかが重要という研究結果
2次元に落とすのは明らかに悪い
5~10次元ならだいぶマシになる
15次元以上にしてもそれ以上良くはならなさそう